Structure de l'internet

Internet est devenu à notre époque un moyen de communication incontournable. Machine omniprésente dont les rouages restent pourtant assez méconnus de ses utilisateurs, elle est intimement liée à des problématiques de société, dont la liberté individuelle, le droit à l'oubli, la surveillance de masse et la marchandisation de nos informations personnelles.

Ce cours est une introduction au fonctionnement d'internet. Il se veut simple et peu technique et tâche de rester abordable. Des parties d'approfondissement sont proposées pour chaque élément évoqué, en évitant le plus possible de s'adresser aux seuls experts.

Une compréhension, même superficielle, du fonctionnement et des acteurs de l'internet peut aider à comprendre un mieux ses enjeux et à se sentir concerné par les débats enflammés qui animent les médias, sans forcément être un expert.

IIntroduction historique

IIUsages et termes courants

Le vocabulaire lié à l'internet est passé dans le langage courant : FAI, box, serveur, html, etc. Une banale situation sur internet, comme celle décrite ci-dessous, fait intervenir un certain nombre de termes qu'il peut être bon d'expliciter :
M. X a un abonnement chez le FAI Numérifree. Il se connecte à internet par le wifi via sa box. Dans son navigateur il tape l'adresse http://www.wikipedia.fr (qui commence par les fameuses lettres http et www). Apparaît alors une page html téléchargée depuis les serveurs de wikipedia jusqu'au client qu'est M. X.

Internet \(\neq\) Web

Internet est l'ensemble physique des infrastuctures connectées par le réseau mondial. Il comprend l'ensemble des ordinateurs, serveurs, des cables, des routeurs, des modems, etc. qui forment le réseau informatique mondial accessible au public.
Si internet est facile à définir, le web est un peu plus flou :
Le Web (toile en anglais) ou World Wide Web (WWW) est un système permettant de consulter, avec un navigateur des pages liées entre elles par des liens (ou liens hypertextes). Les liens entre chaque page prennent l'apparence d'une toile. Cette définition sera précisée un peu plus loin.
On confond souvent les termes internet et web dans le langage courant. Il faut retenir que cela revient à confondre le réseau autoroutier français avec le code de la route, la signalisation et les conducteurs.

HTML (HyperText Markup Language)

Les fichiers stockés sur nos ordinateurs se terminent généralement par un point suivi de quelques lettres appelées l'extension. Chaque extension indique à l'ordinateur avec quel logiciel lire le fichier.
  • Un fichier appelé journal.txt avec l'extension txt est un fichier de type texte fait pour contenir des informations textuelles (s'ouvre avec les logiciels bloc-note, word, etc.).
  • Un fichier appelé chat.jpg avec l'extension jpg est un fichier de type image jpeg fait pour contenir des images compressées (s'ouvre avec les logiciels paint, photoshop, gimp, etc.).

Une page html ou page web est un fichier de texte enrichi ayant l'extension ".html". Il s'agit principalement d'un fichier de type texte, mais dans lequel il est possible d'intégrer des fichiers image ainsi que d'autres types de fichier (vidéo, musique, flash, ...).

Lorsque l'on affiche le code source d'une page html (avec le bloc-note par exemple), on constate qu'elle est écrite "simplement" à l'aide de texte et de balises (Markup en anglais) de la forme <img>, <video>, etc.

Dans un fichier index.html, on peut lire le code ci-dessous, constitué de texte et des balises <b> (texte en gras) et <img> (placer une image).

En l'ouvrant avec un navigateur, on obtient le rendu final sous forme d'une petite page web

Fichier html et dossier d'images Contenu du fichier Rendu avec le navigateur
Une <b>image</b> de pacman :
<img src='images/pacman.jpg' />
Une image de pacman :

Le présent cours est sur une page html. Pour afficher son code comme dans l'exemple ci-dessus, faire un clic-droit, puis Code source de la page, ou au clavier, appuyer Ctrl + U. Difficile de retrouver où est la balise de l'image pacman au milieu de toutes ces informations !

Navigateur

Les fichier .html s'ouvrent avec des logiciels appelés navigateurs (ou browser en anglais) de la même manière qu'un éditeur de texte sert à ouvrir un fichier textuel ou qu'un logiciel de retouche d'image sert à ouvrir et modifier un fichier image.

La première fonction d'un navigateur est donc d'ouvrir un fichier. Bien sûr il possède d'autres fonctions liées au réseau qui permettront d'accéder à des contenus un peu plus distants que les fichiers enregistrés sur notre ordinateur.
Parmi les navigateurs les plus connus, Firefox, Safari, Chrome, Internet Explorer. Ce ne sont pas les seuls...

Serveur - Client

Les pages html accessibles par internet sont enregistrés sur des ordinateurs appelés serveurs (car ils servent ou distribuent leurs informations). L'ordinateur de M. X, celui qui regarde la page est appelé un client.

Adresses IP et DNS

Pour qu'un client et un serveur puissent communiquer, de même que pour le téléphone ou le courrier papier, il faut que les deux interlocuteurs possèdent des adresses. Sur internet, l'adresse utilisée s'appelle l'adresse IP.

Chaque machine connectée à internet, côté client ou côté serveur, possède une adresse IP (Internet Protocol) qui l'identifie de manière unique.

La version 4 de l'IP (IPv4) donne une adresse sous la forme de 4 nombres compris entre 0 et 255 (xxx.xxx.xxx.xxx).

La deuxième fonction d'un navigateur est d'aller chercher une page html ou une information sur un ordinateur (serveur) dont on lui fourni l'adresse IP. Si l'on entre les adresses IP ci-dessus dans la barre d'adresse du navigateur on peut constater que les sites voulus s'affichent.
Il existe maintenant une version 6 de l'IP (IPv6) avec des nombres plus grands, à cause du nombre croissant d'internautes.
  • Pour connaître son adresse IP sur le réseau internet, on peut par exemple aller voir le site www.mon-ip.com .
  • Sous windows, pour connaître son adresse IP, il faut ouvrir une console et taper ipconfig
  • Sous linux, pour connaître son adresse IP, il faut ouvrir une console et taper ifconfig

En tant que serveur hébergeant la page html de ce cours, je peux connaître votre adresse IP qui est : 18.222.164.11

Les adresses IP sont publiques, et servent à représenter quiconque sur internet. Les organismes gérant les adresses IP dans le monde fournissent aux internautes la commande whois (qui est-ce ?) délivrant toutes les informations connues sur l'utilisateur d'une adresse IP.

Certains site comme http://www.dnsfrog.com permettent de réaliser cette commande whois (ainsi que d'autres comme traceroute affichant le cheminenment de l'information parcouries entre le nous et un serveur).

  • Nous sommes plusieurs milliards d'internautes. Est-il concrètement possible de référencer tout le monde par une adresse de la forme xxx.xxx.xxx.xxx ?
  • Qui gère l'adressage IP mondial ? De telles instances peuvent elles être légitimes ?
  • Jusqu'à quel point une adresse IP est-elle le représentant d'un usager ?

Pour en savoir plus sur les adresses IP, cliquer ici

Nom de domaine

Il n'est pas envisageable pour un utilisateur de retenir les adresses IP de chacun des sites qu'il visite.

Quand on tape une nouvelle adresse www.exemple.fr que le navigateur ne reconnaît pas immédiatement, celui-ci envoie tout d'abord une requête à un serveur DNS (Domain Name System ou résoluteur de nom de domaine) traduisant la question "quelle est l'adresse IP correpondant à www.exemple.fr".

La réponse obtenue, le navigateur affiche le site ou une erreur 404 si l'adresse est inconnue.

Un nom de domaine est organisé selon un système hiérarchique :
  • Au somme se trouve la racine représentée par un point .
  • Sous la racine se trouvent les domaines de 1er niveau com, org, net,fr, etc.
Des serveurs DNS sont dédié à la tâche de répertorier les adresses correspondant à leur niveau, et dépendent hiérarchiquement les uns des autres.
Le point de la racine est bien présent dans tout nom de domaine. On l'oublie en général, c'est notre navigateur internet qui l'ajoute automatiquement pour "corriger" cette erreur.
Taper l'adresse www.google.fr. dans la barre d'adresse.
  • Quelles sont ces machines, les serveurs DNS, qui servent à rediriger les internautes du monde entier ?
  • Les domaines .fr, .com appartiennent-ils à des états ?
  • Quelle est la légitimité de ces organisations qui gèrent un flux mondial d'informations ?
  • La position centrale de telles instances ne met-elle pas en évidence une fragilité du système ?

Pour en savoir plus, à suivre....

Lien hypertexte

Nous avons vu qu'une page html n'était que du texte enrichi par des éléments comme des images, et des mises en forme (gras, italique, etc.) grace à des balises <>. Finalement cet "enrichissement" n'est qu'esthétique et n'apporte que peu au web.

Pourtant il existe une balise qui donne tout son sens au mot web, il s'agit des liens hypertextes ou simplement liens, que l'on connaît bien et qui permettent de passer d'une page à une autre en cliquant sur un mot en surbrillance.

Un lien hypertexte, dans le code source d'une page html, s'écrit sous la forme :

<a href='adresse ciblée'> mot en surbrillance </a>

En ouvrant la page html, le navigateur comprend que lorsque l'on clique sur le mot en surbrillance, la page en cours laissera place à une autre avec l'adresse ciblée par l'attribut href.

Dans un fichier index.html, on peut lire le code ci-dessous, constitué de texte et de la balises <a> .

En l'ouvrant avec un navigateur, on obtient le rendu final sous forme d'une petite page web (essayer de cliquer sur le lien)

Contenu du fichier Rendu avec le navigateur
Cliquez <a href='http://www.perdu.com'> ici </a>
si vous êtes perdu.
Cliquez ici si vous êtes perdu.
Les liens hypertextes suggèrent cette allure de toile, et sous-tendent la puissance du web :